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摘 要: 针对 传统 高 光 去 除 方法 对 梯级 图 像 高 光 去 除 表 现 不 佳 问 题 ， 提 出 了 一 种 基于 条 件 生成 对 抗 网 络 的 梯级 图 像 
高 光 去 除 方法 (Multi-scale Spatial dense gradient cascade generative adversarial network，MSDGC-GAN)。 该 方法 设计 了 
一 种 空间 上 下 文 密集 模块 (Spatial Contextual Feature Dense Block，SCFDB) 能 够 深度 提取 像素 行 与 列 之 间 的 空间 背景 
信息 。 此 外 ， 设 计 了 一 种 多 尺度 梯度 级 联结 构 以 弥补 网 络 下 采样 中 的 尺度 特征 损失 ， 并 且 该 结构 能 够 赋予 模型 多 尺 
度 鉴 别 能 力 同时 稳定 训练 梯度 分 布 。 在 分 析 了 经 典 双 色 反射 模型 基础 上 ， 将 最 大 漫 反 射 度 估 计 应 用 于 损失 函数 以 监 
督 网 络 训练 。 实 验 结 果 表 明 ， 所 提 方 法 在 经 典 高 光 数 据 集 和 自制 梯级 高 光 图 像 数 据 集中 表现 均 优 于 所 对 比方 法 。 
关键 词 : 高 光 去 除 ; 条 件 生成 对 抗 网 络 ; 多 尺度 ; 特征 级 联 ; 漫 反 射 估计 ; 密集 连接 网 络 
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Conditional generative adversarial network-based method for stepped surface highlight removal 


Hu Yuhang!, Hu Haiyang!, Li Zhongjin! ? 
(1. College of Computer & Technology, Hangzhou Dianzi University, Hangzhou 310018, China; 2. Intelligent Software 
Technology & Application Research Center, Advanced Institute of Information Technology, Peking University, Hangzhou 
310000, China) 


Abstract: It is difficult for traditional highlight removal algorithms to effectively deal with the processing of stepped highlight 
images in the stepped palletizing of factory robots. To solve this problem, based on the knowledge of conditional generative 
adversarial network, this paper proposes a stepped surface highlight removal network model named MSDGC-GAN (Multi- 
scale Spatial dense gradient cascade generative adversarial network) . In this method, the Spatial Contextual Feature Dense 
Block (SCFDB) aims to deeply extract the spatial background information between pixel rows and columns. In addition, the 
multi-scale gradient cascade structure aims to compensate for the scale feature loss in network downsampling, and this 
structure can endow the model with multi-scale discriminative ability while stabilizing the training gradient distribution. Based 
on the analysis of the classical two-color reflectance model, this paper apply the maximum diffuse reflectance estimation to 
the loss function to supervise the network training. The experimental results show that the proposed method outperforms the 
compared methods in both the classical highlight dataset and the self-made stepped highlight image dataset. 

Key words: highlight removal; conditional generative adversarial network; multi-scale; feature cascade; diffuse reflectance 
estimation; densely connected network 


0 引言 AK IE AA X RIT TE 8 26 m 18 Je B | S rp RO LR RE ER 
m pun BRI. WAARMER RRA, AERE 
随 着 新 一 轮 科技 革命 和 产业 变革 浪潮 的 兴起 ， 越 来 越 多 ”不 色 、 检 测 失败 等 问题 ， 进 而 影响 后 续 梯 级 识别 、 抓 取 点 定 
的 企业 开始 注意 到 企业 生产 智能 化 一 体 化 在 未 来 竞争 中 所 具 “位 提取 等 。 因 此 ， 人 金属 材质 的 扶梯 梯级 图 像 高 光 去 除 对 于 以 
备 的 独特 优势 ， 而 机 器 人 作为 智能 装备 的 代表 ， 已 越 来 越 成 ”视觉 引导 的 机 器 人 码 埃 系 统 具 有 重要 意义 。 
为 助 推 企业 转型 升级 的 动力 器 ， 企 业 生产 效益 的 倍增 器 ， 企 ; 
业 竞 争 优势 的 放大 器 ， 并 成 为 各 大 企业 争夺 经 济 发 展 的 制 高 
点 ， 被 广泛 的 应 用 在 各 大 生产 场景 下 。 近 年 来 机 器 视觉 技术 
不 断 进步 与 创新 ， 其 在 实际 生产 环境 下 的 技术 应 用 越 来 越 成 


熟 ， 以 视觉 引导 为 基础 的 机 器 人 已 经 被 广泛 应 用 于 各 类 自动 
化 生产 场景 。 利 用 机 器 视觉 技术 对 抓 取 物 体 进行 定位 ， 再 将 | 一 一 一 
相关 的 位 姿 信 息 传递 给 机 器 手 使 其 具备 “感知 ”能 力 ， 成 为 (a) 梯级 表面 高 光 (b) PEART 
当前 智能 化 工厂 发 展 导 向 ， 而 其 中 对 于 抓 取 物 体 图 像 的 相关 图 1 T RERA 
处 理 是 机 器 人 能 否 成 功 抓 取 的 关键 前 提 。 Fig.1 Factory step palletizing environment 

与 普通 材质 物体 不 同 ， 在 实际 扶梯 梯级 码 埃 生 产 线 上 ， 在 早期 , 许多 方法 上 3 采取 多 视图 方式 给 图 像 增 加 额外 的 
机 器 人 所 要 抓 取 的 梯级 材质 通常 为 金属 铝 制 ， 为 此 在 自然 光 约束 来 实现 高 光 去 除 ， 对 于 硬件 操作 要 求 较 高 ， 而 其 他 方法 


照射 下 具有 高 反光 、 背 景 复杂 等 特性 ， 如 图 1(a) 所 示 。 梯 级 。” 则 基于 单 视图 对 图 像 进行 高 光 去 除 。 然 而 此 类 算法 大 多 基于 
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和 进行 阐述 ， 第 三 


阵 分 解 ,在 图 像 纹理 或 者 光照 条 件 复杂 的 情况 下 算法 性 能 差 ， 节 利 用 自 定义 数据 集 对 本 文 方法 和 传统 方法 进行 结果 对 比 并 
不 能 满足 实际 需求 。 近 年 来 ， 随 着 深度 学 习 发 展 ， 其 已 广泛 实现 消融 实验 ;第 四 节 对 全 文 进 行 总 结 ， 并 对 未 来 的 研究 方 
加 入 社会 生产 、 生 活 的 各 个 方面 。 与 传统 算法 相 比 ， 深 度 学 向 进行 了 展望 。 
习 能 够 通过 对 训练 图 像 的 自学 习 捕 捉 图 像 的 相关 特征 信息 ， 1 ”相关 工作 
使 得 其 在 图 像 领域 也 迈 上 了 一 个 新 的 台阶 ， 不 仅 在 高 级 语义 
视觉 任务 中 如 目标 检测 、 文 字 识别 等 取得 了 成 功 B， 其 在 各 1.1 图 像 去 高 光 算法 
种 低级 视觉 任务 中 也 取得 了 成 功 。 然 而 ， 由 于 缺乏 大 量 高 质 对 于 图 像 去 高 光 而 言 ， 现 阶段 大 多 数 的 处 理 方式 可 分 为 
量 的 高 光 训 练 数据 ， 目 前 利用 相关 深度 学 习 方 法 进行 高 光 去 单 视图 和 多 视图 两 种 方式 。 前 者 认为 物体 表面 的 光照 可 由 漫 
除 的 研究 仍然 较 少 ， 通 常 仅 局 限于 自制 小 规模 数据 集 进行 训 反射 分 量 和 镜面 反射 分 量 所 构成 ， 其 主要 思路 也 集中 在 如 何 
练 ,不 具备 通用 解决 性 , 如 Yi 等 人 四 将 对 象 外 观 分 解 为 高 光 、 最 大 程度 地 分 离 图 像 的 镜面 反射 分 量 。Tan 等 人 HM 开创 性 提 
阴影 和 反照 率 层 ， 通 过 在 线 收集 产品 照片 来 构建 多 视图 数据 出 先 估计 伪 无 镜 图 像 ， 然 后 通过 比较 生成 的 伪 无 镜 图 像 与 输 
集 对 图 像 进行 高 光 去 除 。 高 光 去 除 方法 可 以 看 成 是 一 种 图 像 入 图 像 的 强度 对 数 微分 , 迭代 去 除 镜面 分 量 。Yang 等 人 0239] 
复原 生成 方法 ， 而 近年 来 生成 对 抗 网 络 (generative adversarial 对 该 方法 进行 了 扩展 ， 提 出 用 双边 滤波 方法 对 伪 无 镜面 图 像 
network) 的 提出 与 发 展 ， 使 得 其 在 图 像 复 原生 成 领域 如 图 像 和 输入 图 像 进 行 比较 ， 达 到 图 像 实 时 处 理 目的 。 由 于 这 些 伪 
去 雾 64、 去 噪声 和 阴影 去 除 &9 有 着 突出 表现 ,效果 要 优 于 无 镜 图 像 会 显著 影响 最 终 的 光 点 去 除 结果 ， 因 此 基于 先 验 假 
传统 卷 积 网 络 模型 。 因 此 生成 对 抗 网 络 的 发 展 也 为 图 像 高 光 设 理论 的 高 光 去 除 方法 也 应 运 而 生 , 如 Ramos 等 人 04 提 出 了 
去 除 提供 了 一 个 全 新 的 研究 方向 。 一 种 从 单个 图 像 中 分 离 漫 反 射 和 镜面 反射 分 量 的 全 自动 方法 
综 上 所 述 ， 根 据 实际 工厂 需要 ， 为 提高 梯级 图 像 获取 质 以 更 少 的 计算 成 本 获得 了 更 好 的 质量 结果 。Yamamoto 5155 
量 从 而 更 利于 后 续 视 觉 引 导 系 统 的 分 析 与 处 理 ， 本 文 提出 一 人 对 现 有 单 张 图 片 反射 分 量 分 离 方法 进行 改进 进一步 提高 检 
种 基于 条 件 生成 对 抗 网 络 的 梯级 图 像 高 光 去 除 模 型 MSDGC- ，” 测 精度 。Ye09 等 人 提出 一 种 基于 暗 通道 先 验 的 镜面 高 光 图 像 


GAN(Multi-scale Spatial dense gradient cascade generative 


adversarial 


network)， 如 图 


KRH 


高 光 信 息 ， 


体 图 像 质 时 


生成 器 基 


connected 


(Spatial Contextual Fea 


尺度 信息 。 


slice) 卷 积 来 提 : 
的 密集 网 络 获 
向 上 的 特征 级 


2 所 示 。 其 


目的 在 于 尽 可 能 去 除 梯 
同时 最 大 程度 还 原 梯级 纹理 细节 ， 提 高 整 
Eo 首先 ， 采 用 编码 -解码 (encode-decode) 结 构 作 为 


本 架构 ， 在 密集 连接 卷 积 网 络 基 础 上 (densely 


convolution 


度 梯 度 鉴别 方法 ， 将 编码 


SOS(Strengthen-Operate-Subtract) Ji] 3% 95 


network) 构造 了 一 种 
ture Dense Block， 空 间 上 下 文 密集 块 ) 
作为 生成 器 的 基本 模块 ， 模 块 中 基于 多 路 并 
取 和 传递 图 像 像 素 背 景 特征 信息 ， 通 过 深层 次 


SCFDB 模块 


E Hr fR](slice-by- 


区 图 像 的 语义 特征 信息 ， 其 次 ， 提 出 一 种 
区 方式 ， 则 在 弥补 网 络 PAR 
在 借鉴 MSG-GAN 网 络 00 基 础 上 ， 提 出 一 种 多 尺 
居 后 的 特征 图 输出 通过 
各 结构 与 解码 器 长 


器 各 尺度 级 


HU 


和 时 所 损失 的 部 分 


距离 相连 ， 其 分 支 经 卷 积 后 输出 至 对 应 鉴别 器 ;最 后 ， 在 损 


失 函 数 构造 | 


估计 应 | 


高 光 图 像 数 所 
本 文 创建 了 


于 损失 函数 的 监督 训练 。1 


上 :分析 了 传统 双色 反射 模型 ， 将 最 大 漫 反 射 分 量 
于 目前 无 大 量 梯级 表面 


5. 为 了 能 够 训练 本 文 网 络 框架 并 评估 它 的 优势 ， 
一 个 一 对 一 的 梯级 表面 高 光 对 照 数据 集 ， 数 据 集 


分 为 高 光 纪 


日 和 无 高 光 组 。 实 验 表明 ， 本 文 提 出 的 梯级 表面 高 


增强 算法 ， 通 过 引 
像 中 的 光 晕 伪 影 。 
去 除 改 进 算 法 


入 基于 


局 部 像素 色差 的 加 权 函 数 来 解决 图 


3p an 


, Abu BU 


等 人 0 提出 了 一 种 导向 滤波 的 高 光 
直 分 离 图 像 黑色 像素 同时 通过 导 


向 滤波 的 优势 最 大 限度 保留 图 像 的 边缘 和 纹理 避免 了 纹 


BEA 


段 设 ， 在 背景 和 光 


无 法 有 效 去 除 问题 。 


应 。 但 是 ， 由 于 这 些 方法 需要 严格 的 先 验 
照 条 件 复杂 的 真实 场景 中 ， 这 些 方法 很 容易 失败 ， 导 致 高 光 


射 以 施加 额外 的 约束 从 而 达到 图 


而 基于 多 视图 的 去 高 光 方式 认为 高 光 是 方向 相关 的 ， 所 


以 依赖 于 从 多 视角 


多 副 图 像 寻 找 图 像 特征 关系 


进行 相互 映 


像 去 高 光复 原 的 效果 。 如 文 


献 [1,2] 选 取 固定 的 场景 从 不 同 的 角度 拍摄 了 多 副 图 像 ， 而 Li 


AAT 


提出 利用 
的 镜面 反射 从 而 实 
于 多 视角 


习 则 在 不 同 光源 下 对 物体 拍摄 一 系列 图 
视频 片段 中 相 邻 图 像 帧 中 的 附加 信息 来 减少 每 个 帧 
岗 高 光 去 除 。 温 佩 芝 等 人 


像 ,Shah && AU?! 


TE 


图 像 特 征 


1.2 生成 对 抗 网 络 


生成 对 抗 网 络 


光 去 除 网 络 框架 MSDGC-GAN 的 表现 要 明显 优 于 传统 高 光 


去 除 算法 。 


K 2 


5O5 增 强 策略 


MSDGC-GAN 高 光 去 除 模 型 


Fig.2 MSDGC-GAN highlight removal model 
本 文 的 其 余部 分 组 织 如 下 : 第 一 节 对 现 阶段 图 像 高 光 去 


除 算法 和 4 


成 对 抗 网 络 进 


, 


于 二 人 零 和 博弈 ， 
成 器 接受 一 个 随机 
生成 器 所 给 的 假 村 
来 说 生成 网 络 是 为 了 生成 更 
分 辨 真 伪 ， 从 而 达到 以 假 乱 
态 平衡 过 程 ， 其 理论 关系 可 表示 为 
minmaxV (D.G)- E [log(D(3))]- E [log(1-D(G(2)))] 


Hr, P 


匹配 的 高 光 去 除 方法 。 此 类 多 视图 方法 号 
然 能 达到 不 错 的 去 除 效果 ， 但 是 其 缺陷 也 明显 ， 即 在 实际 过 
程 中 需要 有 条 件 的 一 系列 图 像 作为 支撑 ， 应 用 拓展 性 不 好 。 


Goodfellow 4& APEH, 
其 网 络 结构 由 生成 器 与 鉴别 器 所 构成 。 生 


Wi 
种 基 
E 
过 


主要 思 ; 


UPS 


党 声 生 产 对 应 的 
本 和 真 样本 并 试图 判别 他 们 的 真 伪 。 总 的 


BIES, mE 


欺骗 性 的 样本 使 得 鉴别 器 无 法 
的 效果 ， 使 得 整体 处 在 一 个 动 


(1) 


信 表 真实 数据 的 样本 分 布 ，R 则 代表 生成 器 产生 的 


z 代表 简单 样本 噪声 。 而 由 于 传统 生成 网 络 无 法 


控制 图 像 的 生成 ，M Mirza 等 人 P 提 出 了 一 种 条 件 生成 对 抗 


网 络 CGAN(Conditional Generative Adversarial Nets)， 
GAN 网 络 的 概率 判断 全 改 成 条 件 概率 ， 


其 将 原生 
即 在 生成 器 与 判别 器 的 


输入 端 增加 条 件 输入 以 指导 图 像 生成 ， 损 失 函 数 表 示 为 


Ru, y 


了 一 种 有 监督 的 图 像 到 医 
对 的 翻译 转换 ， 


行 相关 介绍 ; 


第 二 节 对 本 文 所 提 方 


马尔 Hj 了 


min max V (D,G) = EI 


og(D(x| y))]+ E [oga -DG(z|y)) 


Q) 


表示 先决 条 件 。 


基于 CGAN 思想 , Isola 等 人 P3] 提 出 


图 像 翻 译 网 络 (pix2pix)， 用 于 图 像 配 


其 生成 器 与 鉴别 器 分 别 使 用 了 U-net 架构 和 


判别 器 。pix2pix 方法 取得 了 良好 的 效果 ， 


但 是 由 于 
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其 网 络 结构 问题 最 终生 成 图 片 只 适合 低 分 辩 率 图 像 ， 并 且 与 s-| R(G(S;)) i=l 6) 
真实 图 像 存 在 一 定 差 距 ， 为 此 Wang 等 人 P4 提 出 一 种 高 分 辩 S-R(G(S)  i-23...H 


率 pix2pixHD 网 络 ， 利 用 多 尺度 判别 技术 弥补 了 pix2pix 网 其 中 ，G 为 卷 积 操作 ， 5 为 卷 积 后 得 到 的 特征 切片 ，R 为 激 
络 对 于 生成 高 分 辨 率 图 像 的 不 足 ,但 其 生成 的 图 像 色彩 过 大 ， ” 活 函 数 采用 LeakyReLu。 其 中 每 个 维度 方向 上 的 片 间 卷 积 函 
虽然 对 于 粗 尺度 上 的 图 像 生成 能 够 有 效 的 进行 监督 ， 但 对 于 ” 数 共享 同一 个 卷 积 核 ， 通 过 这 种 方式 可 以 使 得 更 加 丰富 的 特 
细 尺 度 的 生成 具有 缺陷 难以 生成 具有 质感 的 真实 图 像 。Zhu 征 信息 在 像素 维度 的 层 与 列 中 实现 传递 从 而 有 效 提取 像素 的 
等 人 R35 提出 一 种 无 监督 的 循环 对 抗 网 络 (CycleGAN), 解决 。 空间 背景 信息 ， 并 且 其 效率 优 于 普通 卷 积 ， 简 化 了 信息 传递 
了 图 像 到 图 像 转 换 需 要 配对 图 像 的 问题 。 为 了 解决 GAN 网 并 加 快 模型 的 运算 效率 。 对 每 一 路 切片 信息 进行 拼接 和 
络 训练 时 梯度 不 稳定 和 对 超 参数 敏感 的 问题 ，AKarnewar 等 ”LeakyReLu 激活 后 将 两 路 支 路 进行 加 权 融 合 ， 最 后 经 过 一 次 
人 109 提出 了 一 种 多 尺度 梯度 生成 对 抗 网 络 (MSG-GAN), TRAE — 33 卷 积 层 输出 特征 图 ， 如 图 4 所 示 。 
别 器 与 各 尺度 特征 输出 图 建立 通道 从 而 稳定 梯度 流动 。 

为 了 解决 传统 高 光 去 除 算法 对 于 梯级 表面 高 光 处 理 效果 
不 佳 的 问题 ， 本 文 基于 条 件 生成 对 抗 网 络 提出 了 一 种 
MSDGC-GAN 梯级 高 光 去 除 模型 ， 利 用 自 定 义 梯 级 数据 集训 练 
模型 网 络 ， 在 实验 分 析 中 本 文 不 仅 与 传统 高 光 去 除 算法 进行 对 


比 ， 同 时 加 入 了 基于 pix2pixHD 的 模型 方法 进行 比较 ， 实 验证 uM Sen ou 
明 本 文 所 提出 MSDGC-GAN 模型 表现 要 优 于 现 有 方法 。 图 4 Slice-by-Slice 卷 积 示意 图 
EA Fig. 4 Slice-by-Slice convolution diagram 
2 本文 方 法 本 文 密集 块 之 内 用 SCF 层 对 相同 尺寸 的 输入 特征 图 进 
2.1 网 络 架 构 行 特征 提取 。 与 传统 密集 层 类 似 , 每 一 个 SCF 层 的 输出 都 会 
本 文 的 目的 是 通过 输入 一 张 待 去 除 高 光 梯 级 图 像 14, 且 ”被 添加 到 后 续 所 有 SCF 层 作为 共同 输入 , 同时 编码 器 密集 块 
不 通过 其 他 任何 相关 信息 辅助 生成 一 张 高 光 抑 制 的 对 应 清 昌 之 间 利 用 过 渡 层 的 1xl 卷 积 压缩 特征 图 通道 ， 再 通过 平均 池 


图 像 1: ， 因 此 构建 了 一 个 多 尺度 条 件 生成 对 抗 网 络 ， 则 在 通 化 实现 特征 图 的 下 采样 将 源 输入 特征 图 每 次 降 至 1/2 尺寸 。 
F 端 到 端的 方式 获取 高 光 去 除 图 像 。 网 络 主体 结构 由 生成 器 。 解码 器 上 采样 过 程 采 取 与 编码 器 相同 的 密集 层 连 接 结构 ， 而 
与 鉴别 器 组 成 ， 其 中 生成 器 基本 架构 采用 U-net 结构 ， 利 用 在 过 渡 层 中 则 使 用 4x4 转 置 卷 积 (Transpose Convolution) 将 特 
编码 -解码 结构 特点 提取 图 像 深 层 结构 信息 。 同 时 为 了 充分 。 征 图 依次 向 上 采样 。 层 内 所 有 归 一 化 采取 实例 化 归 一 化 
取 特 征 像素 之 间 的 空间 上 下 文 背 景 信息 特征 ， 提 出 了 一 种 (mstanceNorm) 技 术 。 
闻 上 下 文 密集 块 作为 生成 器 的 基本 模块 。 为 了 解决 网 络 在 2.2.2 多 尺度 梯度 级 联 
采样 池 化 操作 中 容易 丢失 部 分 尺度 特征 信息 的 问题 ， 提 出 如 图 2 所 示 ， 本 文 将 SCFDB 模块 作为 生成 器 的 基本 模 
种 多 尺度 梯度 级 联 方 法 。 通 过 从 底层 特征 依次 进行 级 联 输 。” 块 ， 整 个 编码 器 的 下 采样 过 程 涵 盖 5 个 密集 块 ， 每 个 块 内 有 
以 弥补 相 邻 模块 之 间 的 下 采样 特征 损失 ， 并 将 各 尺度 鉴别 4 个 密集 连接 层 。 虽 然 通 过 密集 块 能 够 在 每 个 层级 极 大 丰富 
与 生成 器 级 联 输出 各 自 相 连 ， 使 得 网 络 增强 对 图 像 细节 的 特征 信息 ， 但 是 无 法 解决 U-net 网 络 在 下 采样 操作 过 程 中 存 
时 能力 并 具备 多 尺度 鉴别 能 力 ， 实 现 了 梯度 的 传导 改善 J 在 容易 丢失 部 分 尺度 特征 信息 的 问题 ， 且 网 络 的 底层 特征 已 
网 络 训练 时 梯度 不 稳定 的 问题 。 在 损失 函数 阶段 ， 分 析 了 双 被 证 明 在 恢复 物体 细节 方面 具有 重要 作用 。 为 此 本 文 提 出 一 
色 反 射 模型 ， 将 图 像 的 漫 反 射 分 量 估计 应 用 于 损失 函数 ， 同 种 特征 级 联 方法 ， 通 过 从 底层 特征 逐步 与 上 层 特 征 在 通道 维 
时 结合 对 抗 性 损失 函数 和 特征 匹配 损失 作为 目标 总 损失 。 网 度 进行 级 联 以 增强 尺度 语义 特征 的 传递 ， 如 图 5 所 示 。 
络 的 总 体 架构 如 图 2 所 示 。 = 
2.2 生成 器 架构 ps We 
22. 空间 上 下 文 密集 块 | -as " 
本 文生 成 器 结构 以 U-net 网 络 为 基础 ， 同 时 为 了 解决 伟 sa 
£i; U-Net 网 络 在 网 络 层 数 加 深情 况 下 梯度 消失 和 表面 特征 易 
丢失 的 问题 ,本文 借 鉴 DensNet29 网 络 理念 ， 将 DB 密集 块 
(Dense Block) 引 入 U-net 网 络 ， 通 过 密集 连接 来 加 强 特 征 和 
梯度 的 传递 ， 如 图 3 所 示 。 但 是 传统 密集 块 的 堆 闭 卷 积 方式 
不 能 有 效 的 获取 各 行 各 列 像素 间 的 空间 背景 信息 ， 而 这 种 信 
息 已 经 被 证 明 对 高 亮 检测 和 低级 图 像 处 理 是 有 用 的 R71。 图 5 ”特征 级 联 方 法 

Fig.5 Feature cascading method 
通常 网 络 的 深层 特征 图 具有 较 高 的 通道 数 ， 如 直接 进行 
特征 图 的 堆 受 拼接 将 会 增加 网 络 运行 参数 影响 网 络 运行 效率 。 
为 了 减少 网 络 内 存 的 消耗 ， 本 文通 过 一 次 简单 卷 积 操作 将 每 
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IN 
Am 次 级 联 后 的 特征 块 通道 数 压缩 至 原始 数量 级 。 设 在 编码 器 下 
采样 操作 后 得 到 第 个 尺度 的 特征 块 为 @.(*x), 则 每 一 级 级 联 
à 操作 可 表示 为 

6 (7)=Conv(Up(@ (CD)) " 

—G - d (x)= Com (Up(Cat(@ (x), (x) | i21... k-1 
Ep, à Q) 为 级 联 后 输出 特征 块 ，Up( ) . Car ) 和 Conv( ) 表 
图 3 ”空间 上 下 文 密集 据 示 上 采样 、 串 联 和 卷 积 操作 。 同 时 受 MSG-Net 启发 ， 本 文 在 


Fig. 3 Spatial context dense block 特征 级 联 方法 上 提出 了 一 种 多 尺度 梯度 级 联 方法 (图 2), 将 编 
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码 器 每 个 尺度 级 联 后 的 特征 输出 图 经 过 一 次 3x3 卷 积 ， 随 后 hel i i, la -yl (10) 
通过 长 距离 跳跃 连接 送 入 对 应 尺度 的 解码 器 转 置 后 特征 块 。 2 Ka GV 

此 外 解码 器 在 不 同 尺度 的 层级 上 有 分 支 ， 将 每 次 尺度 级 联 增 H, za X 分 别 为 第 k 尺度 图 像 的 预测 和 真实 的 漫 反 射 分 


强 后 的 特征 图 进行 输出 ， 经 过 一 次 1xl 卷 积 后 将 特征 图 像 送 
入 对 应 尺度 鉴别 器 ， 使 得 鉴别 器 不 但 以 最 终 输 出 作为 输入 ， 
同时 还 以 编码 器 中 则 级 联 输出 作为 输入 ，。 这 让 模型 能 够 在 更 
多 尺度 上 捕捉 图 像 信 息 ， 使 得 最 终生 成 图 像 具 有 更 好 的 表征 
同时 让 网 络 梯度 可 以 直接 从 鉴别 器 流向 生成 器 的 中 间 层 ， 增 
加 了 训练 期 间 的 稳定 性 ， 并 解决 了 U-Net 架构 非常 深入 时 梯 
度 渐变 消失 的 问题 。 本 文 不 采用 传统 U-net 的 长 距离 跳跃 连 
接 方 式 将 模块 中 的 上 采样 增强 特征 和 潜在 特征 连接 起 来 ， 而 
是 采取 SOS 增强 策略 结构 Ps , 此 结构 受 图 像 增强 算法 启发 设 
计 能 够 对 图 像 进 行 细 化 增强 处 理 。 如 图 2 虚 框 所 示 ， 其 操作 
可 表述 为 


Vi (x) = C, (@ X) +Up (Weni x) -Up (Vn (x)) (5) 
其 中 ，wi (x) 表示 解码 器 输出 特征 图 ，C 表示 修复 单元 , 每 个 
修复 单元 代表 一 个 密集 块 。 对 于 第 k 层 的 输出 wi(x) ,首先 对 
上 一 层 得 到 的 特征 图 ve 进行 2 倍 的 上 采样 ， 然 后 将 对 应 
编码 器 输出 的 特征 图 w (xz) 相 加 送 入 修复 单元 , 其 结果 再 减 去 
Via Q) 作为 最 终 输 出 ， 通 过 这 种 方式 细 化 输出 结果 以 增强 图 
像 细节 。 

2.3 鉴别 器 架构 
在 生成 器 训练 过 程 中 解码 器 将 会 输出 各 个 尺度 的 图 像 ， 
本 文采 用 PatchGAND3 判 别 器 结构 作为 鉴别 器 网 络 。 相 比 于 
传统 二 分 类 的 鉴别 器 ，PatchGAN 将 图 片 分 为 多 个 区 域 分 别 
进行 单独 判别 并 输出 预测 概率 值 ， 而 不 是 直接 对 整 幅 图 片 进 
行 打 分 ， 从 而 在 图 像 局 部 细节 特征 的 提取 上 具有 更 好 的 表达 
能 力 。 本 文 将 源 图 像 缩 放 至 与 编码 器 分 支 输出 图 像 相 应 尺度 ， 


并 互相 连接 起 来 ， 作 为 一 个 假 的 样本 提供 给 鉴别 器 ， 同 样 另 
外 将 源 图 像 和 实际 目标 图 像 同 尺度 也 相互 连接 作为 真 样本 提 


供给 鉴别 器 。 本 文 使 用 了 3 个 鉴别 器 DI, D2, D3 来 接受 不 同 
尺度 的 输出 图 像 ， 所 有 鉴别 器 的 结构 都 是 相同 的 。 

2.4 损失 函数 
本 文 网 络 训练 的 目的 是 尽 可 能 将 输入 图 片 转 换 为 目标 无 
高 光 图 , 为 此 提出 一 种 漫 反 射 分 量 损失 函数 (Diffuse reflection 
loss)， 即 将 漫 反 射 分 量 估计 应 用 于 内 容 损失 用 来 约束 预测 图 


IT Ir 


Ck y Wy 和 h, 
式 (8)(9) 求 出 。 

本 文 总 的 结构 损失 函数 由 对 抗 性 损失 函数 、 
损失 函数 和 特征 匹配 损失 三 个 Hi. 
PIX2PIX-HD 所 提出 的 改进 对 抗 损失 ， 划 


£ - ming (moss Su (G, D, ) (1 1) 


HE k REBR 


寸 大 小 ， 漫 反射 分 量 可 由 


lim] 
四 


漫 反 射 分 量 
TESI 
公式 如 下 : 


ao (G.D, 小 AP ao Gs) DP Goa Xl] 
A ! Je |o% (x »)-7 DP (x. a)l 


2n c ce wh 


H. rH 


表示 条 件 损 失 s 
Loan (G, D) - E; [logDG y)] e E. [log(1-DG.GGc2))] — (12) 
关于 特征 匹配 损失 部 分 ， 其 定义 如 下 : 


cm (G3 oP Gey) -DP ssa] — 03) 

Kb, 代表 判别 器 第 ; 层 的 元 素数 ，7 为 总 层 数 ，DP 代表 
判别 器 Pp 的 i 层 特征 。 
总 的 损失 函数 如 下 : 


Liora = ming (moss Di. D; ble (G, D, )] F 
pe 
nl ， 
M ren oe (14) 
EE ILE lz 人 一 yl 


^a 3 
其 中 ，4、 厂 分 别 为 特征 匹配 损失 函数 和 漫 反 射 损失 的 权 值 。 
3 ”实验 结果 与 分 析 


3.1 实验 设置 

本 文 去 高 光 条 件 生成 对 抗 网 络 基于 Pytorch 深度 学 习 框 
架 搭 建 ， 编 程 语言 为 Python3.7， 网 络 训练 服务 器 配置 为 八 核 
Inter CPU I7， 图 像 处 理 器 (GPU) 采 用 NVIDIA GTX 2080Ti， 
显存 20GB。 在 训练 时 采用 自 适 应 动量 估计 优化 算法 (Adam) 
作为 求解 器 ， 动 量 参数 有 为 0.5，B 为 默认 值 ， 权 重 采用 高 


与 目标 图 的 差异 。 根据 文献 11 提出 的 双色 反射 模型 ， 非 均匀 
光照 下 的 任意 一 点 的 光照 反射 可 分 为 漫 反 射 与 镜面 反射 , 其 
数学 模型 为 


P(Z)-w,(Z)F(Z)*w,(Z)H(Z) (6) 
其 中 ， POCO 是 图 像 像 素 强度 ， ww(Z) 为 漫 反射 分 量 系数 ， 
Wi(Z) 为 镜面 反射 分 量 ，F(2Z) 为 漫 反 射 分 量 ， 已 (Z) 为 镜面 反 
射 分 量 。 其 中 图 像 中 任意 一 点 像素 点 的 色 度 可 表示 为 


P(Z) 
«(7 gc EZ) &(Z) 
F(Z) 
B v ZY E GR) (?) 
_ H(Z) 
"7 8 ZH) 


B (ZB) E G)* B ()- Pra (Z) 

35, (Z)-1 

因此 ， 若 能 求解 最 大 漫 反射 色 度 Bui), 

的 漫 反射 分 量 ， 根 据 文献 [13] 所 提 通 
式 (9) 表 示 : 


w (2)F(2)=P(2) 


便 能 获得 图 
常 最 大 漫 反 射 分 量 可 


Azo Pas (Z)- ew. (Z) 
O AS (9) 


其 中 ，B(Z) 是 最 大 漫 反射 色 度 bu(2) 的 估计 值 ,因此 定义 多 尺 
度 下 的 漫 反 射 分 量 损失 函数 如 下 : 


斯 分 布 随机 初始 化 , 均值 为 0, 标准 差 为 0.02， 总共 训 练 200 
个 epoch， 前 170 个 epoch 保持 初始 学 习 率 不 变 ， 后 30 个 
epoch 采取 线性 衰减 方式 至 0。 对 于 损失 权重 的 权 值 , 经 过 多 
次 实验 设置 4 为 10， 元 为 0.5。 由 于 大 多 数 图 像 高 光 去 除 的 
传统 算法 基于 颜色 空间 分 布 和 和 矩阵 运算 原理 ， 这 类 算法 不 需 
要 大 量 的 图 片 进 行 验证 ， 为 此 目前 还 未 有 大 规模 的 公共 数据 
库 用 于 高 光 梯级 图 像 的 去 除 ， 因 此 本 文 对 现实 梯级 进行 拍照 
采集 建立 了 用 于 训练 与 测试 的 数据 集 。 为 了 模拟 高 光 效果 ， 
通过 打 光 器 对 梯级 进行 照射 分 别 收集 了 在 同一 位 置 高 光照 射 
下 和 与 无 高 光照 射 的 梯级 物体 图 像 ， 并 对 图 像 进行 相同 切割 
选 出 最 优 图 像 对 ， 将 其 统一 裁剪 为 312x512 大 小 后 (图 6) 按 照 
有 无 高 光 进 行 分 组 ， 总 计 2000 组 对 照 图 像 。 
由 于 本 文 模型 采用 了 全 卷 积 结构 因此 对 任何 图 片 输入 都 
适用 ， 为 了 增加 网 络 的 泛 化 性 和 通用 性 ， 本 文 还 从 文献 
[11~16,29] 中 收集 高 光 图 像 , 并 将 其 进行 了 数据 集 扩充 处 理 操 
作 至 共 700 组 用 于 泛 化 训练 并 且 对 其 进行 了 分 析 比 较 。 本 文 
采取 客观 和 主观 方面 对 图 像 进行 实验 分 析 ， 客 观 评 价 方面 选取 
了 峰值 信 品 比 PSNR) 和 结构 相似 性 (SSIM) 作 为 分 析 评 价 指标 ， 
PSNR 越 大 表示 失真 越 小 , SSIM 越 大 表示 图 片 越 接近 原始 图 像 ， 
同时 本 文 针对 所 提 模 块 和 损失 函数 做 了 消融 实验 分 析 。 

3.2 结果 对 比分 析 
为 了 评估 本 文 所 提 
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ETE 


出 的 MSDGC-GAN 方法 去 高 光 效 果 ， 
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首先 选取 了 测试 梯级 高 光 图 像 进行 了 实验 , 并 与 文献 [12]、 文 平均 PSNR 和 SSMI 的 指标 对 比 ， 可 以 本 文 模型 在 梯级 测试 
献 [14~16]、 文 献 [30] 和 基于 pix2pixHD 的 模型 方法 分 别 做 了 集 上 的 平均 PSNR 领先 其 余 方法 近 11/dB， 而 传统 算法 指标 
对 比 ， 实 验 效 果 如 图 7 所 示 。 表现 普遍 较 差 ， 进 一 步 显 示 了 本 文 模型 在 处 理 梯 级 高 光 图 像 
可 以 看 出 传统 基于 颜色 分 析 和 优化 的 算法 在 实际 处 理 梯 上 的 优势 。 

级 单一 表面 大 面积 高 光 时 效果 很 差 ， 如 图 7 所 示 ， 文 献 [14] High light 

方法 对 于 此 类 图 像 的 高 光 去 除 方法 较 差 ， 异 常 像素 面积 V" 

高 光 区 域 并 未 还 原 , 说 明 算法 存在 缺陷 。 文 献 [16] 方 法 在 一 定 

程度 上 对 光 点 附近 进行 了 抑制 ， 但 无 法 去 除 中 心 高 光 。 而 文 

献 [30] 方 法 则 无 法 很 好 检测 出 此 类 高 光 ， 处 理 结果 与 输入 图 
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上 更 为 细腻 ， 


， 同 时 颜色 保 真 好 ， 
常 像素 问题 。 表 1 是 在 本 文 梯级 数据 集 上 
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Fig.6 Cascade dataset production 
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Fig.7 Step surface highlight removal comparison 
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e 表 1 在 梯级 数据 集中 与 不 同 高 光 去 除 方法 的 比较 
LO Tab. 1 Comparison with Different Specular Removal Methods in the 
e Cascade Dataset 
CN 方法 PSNR/dB SSIM 
N 文献 [14] 18.281 0.672 
E 文献 [16] 20.512 0.772 
"u 文献 [30] 22.675 0.753 
之 Pix2pixHD 21.218 0.646 
» MSDGC-GAN 29.298 0.842 
© ik: 加 粗 字 体 为 每 列 最 优 的 结果 。 
-am 图 8 为 不 同 高 光 去 除 方法 与 本 文 方法 在 现实 工 位 上 收集 
co 的 梯级 图 像 结果 对 比 图 。 文 献 [1 和 方法 在 第 一 行 图 片 中 对 高 
o 光 区 域 进行 了 处 理 , 但 颜色 还 原 不 自然 , 文献 [16] 方 法 对 于 高 
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域 时 (第 三 行 ), 传统 算法 显 
光 进 行 抑制 去 除 ， 也 无 法 有 效 对 背景 强 光 进行 消 
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有 的 特征 ， 算 法 只 
言 息 尽 可 能 来 进行 后 续 的 消除 还 原 ， 而 本 
提取 ， 不 仅 能 够 对 梯 


保留 


同时 对 于 背景 处 的 高 强度 金属 
良好 的 星 现 效果 ,说明 其 能 有 效 提取 和 利 


像 整 体 结构 
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Jü 


善 ， 未 发 生 严 


果 较 好 ， 足 够 满足 实际 


生产 中 的 后 续 
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(b) 文 献 [14] 
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(c) 文 献 [15] (gd) 文 献 [16] 
8 ”现实 工 位 梯级 图 像 高 光 去 除 对 比 


(e)pix2pixHD 


Fig.8 Comparison of highlight removal in real work station step images 


为 了 验证 网 络 的 通 


用 泛 化 性 ， 本 文 在 训练 


FP 将 经 典 


高 光 
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像 进 行 数据 集 扩 充 


(DOMSDGC-GAN 


加 入 训练 ， 选 取 了 几 张 代表 性 高 光 图 
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像 进行 了 对 比 实验 ， 如 图 9 所 示 。 从 视觉 上 分 析 各 方法 差 吕 集 上 的 平均 PSNR 和 SSIM 数值 比较 ， 可 以 看 出 pix2pixHD 


很 小 , 其 中 在 图 9(a) 中 , 文献 [15] 方 法 在 兔子 耳 条 和 黄 水 果 上 ”方法 的 平均 性 能 最 差 ， 本 文 方法 性 能 最 优 ， 说 明 模 型 在 此 类 
方 的 光 坚 残留 较 , 文献 [30] 方 法 水 果 高 光 去 除 结果 中 苹果 存 EL 问题 图 像 上 表现 也 十 分 优异 ， 整 体 视觉 展示 效果 和 色彩 


T Hn 


在 光 坚 残留 且 还 原 较 为 模糊 。 表 2 为 各 方法 在 经 典 高 光 数 据 还 原 更 好 ， 生 成 图 像 质量 高 。 


(9) 高 光 图 (b) 文 献 [15] (c) 文 献 [16] (dd) 文献 [30] (e)pix2pixHD (MSDGC-GAN (g) 原 


图 9 经典 高 光 图 像 对 比 
Fig.9 Classic highlight image comparison 
A2 在 经 典 高 光 数 据 集中 与 不 同 高 光 去 除 方法 的 比较 作用 。 同 时 为 了 研究 损失 函数 对 于 图 像 重 建 效 果 的 影响 ， 基 
Tab.2 Comparison with Different Specular Removal Methods in 于 梯级 数据 集 ， 选 取 了 不 同 的 损失 函数 进行 了 消融 实验 : 分 
Classic Specular Datasets 别 将 漫 反 射 损失 替代 为 感知 损失 L, 像素 距离 损失 4 并 形成 
E 方法 PSNR/dB SSIM 不 同 组 合 方式 对 其 图 像 结果 进行 了 指标 对 比 ， 其 中 对 抗 损 失 
文献 [15] 38.342 0.912 和 特征 函数 作为 基准 不 单独 进行 消融 实验 ,结果 如 表 4 所 示 ， 
文献 [16] 39.876 0.932 可 以 看 出 采用 本 文 所 采取 的 损失 函数 组 合 ,模型 的 表现 更 佳 。 

` 文献 [30] 40.108 0.938 

Pix2pixHD 35.586 0.815 

MSDGC-GAN 40.298 0.942 


ik: 加 粗 字 体 为 每 列 最 优 的 结果 。 
综 上 所 述 ， 本 文 所 提 方 法 不 论 是 视觉 效果 还 是 指标 比较 
上 都 有 巨大 优势 , 这 说 明了 本 文 网 络 所 采用 的 深度 编码 -解码 
填 构 不 仅 有 效 利 用 了 TU 型 对 称 网 络 结构 提取 深层 次 信息 的 优 
四 ， 同 时 通过 空间 上 下 文 密集 模块 与 多 尺度 梯度 级 联 增强 了 
山野 范围 ， 充 分 提取 了 图 像 的 纹理 、 背 景 特征 信息 ， 为 此 能 
多 有 效 生成 较 高 质量 的 图 像 ， 使 表面 特征 得 到 有 效 恢复 ， 特 
2 征 还 原 更 接近 实际 图 片 。 (a) 高 光 图 (bjDB+ 单 一 尺度 鉴别 器 
© 33 消融 实验 
C 为 验证 SCFDB 模块 和 多 尺度 梯度 级 联 对 于 图 像 结果 的 
影响 ， 本 文 将 网 络 按照 不 同 模块 组 合 在 梯级 图 像 集 上 进行 消 
融 对 比 ， 共 设计 为 三 组 : 第 一 组 为 DB 模块 作为 模型 基本 模 
块 ， 采 用 单一 尺度 鉴别 器 方式 ， 第 二 组 为 采用 DB 模块 和 本 
文 多 尺度 梯度 级 联 方式 ， 第 三 组 为 SCFDB 模块 和 多 尺度 梯 
度 级 联 , 实验 结果 如 图 10 所 示 。 可 以 看 出 只 采用 传统 密集 块 
时 ， 如 图 b 所 示 ， 由 于 没有 利用 图 像 多 尺度 信息 ， 结 果 图 较 
为 模糊 ， 梯 级 纹理 还 原 度 不 够 好 质量 较 差 。 而 对 于 图 10(c)， 


NE 


EY 


amm 


pup 


图 像 对 梯级 边缘 处 还 原 不 够 细腻 ， 出 现 了 较为 明显 的 像素 异 
常 现象 ， 图 像 还 原 差 。 在 应 用 本 文 模块 后 ， 不 仅 对 于 高 光 区 c)DB+ 多 尺度 梯度 级 联 (d)SCFDB+ 多 尺度 梯度 级 联 
域 得 到 了 有 效 抑制 ， 上 述 问 题 也 得 到 解决 ， 图 像 更 为 逼真 ， 10 ”不 同 模块 组 合 效果 
ea 获 和 传递 图 像 像 素 间 的 特征 并 且 能 Fig. 10 Combination effects of different modules 
有 效 利 用 多 尺度 信息 。 表 3 在 梯级 数据 集中 不 同 模块 组 合 比较 
表 3 是 本 文 模块 消融 实验 在 梯级 数据 集 上 的 实验 对 比 ， Tab. 3 Comparison of different module combinations in the rung dataset 
通过 实验 结果 可 以 看 出 ， 由 于 第 一 组 方法 并 未 采用 多 尺度 鉴 方法 PSNR/dB  SSIM  Time/s 
别 器 , 模型 运行 速度 相对 最 快 , 但 指标 表现 最 低 。 比 较 第 2、 DB+ 单 一 尺度 鉴别 器 27.341 0.826 0.33 
3 组 实验 可 以 发 现 ， 在 同样 采用 多 尺度 梯度 级 联 方法 下 ， 本 DB+ 多 尺度 梯度 级 联 28.151 0.753 0.55 
文 所 提出 的 空间 上 下 文 密集 块 网 络 模型 运行 速度 要 快 于 传统 SCFDB+ 多 尺度 梯度 级 联 29.751 — 0.853 042 
密集 块 网 络 模 型 ， 这 是 由 于 slice-by-slice 的 卷 积 方式 极 大 提 ik: 加 粗 字 体 为 每 列 最 优 的 结果 。 
高 了 卷 积 效 率 ， 且 在 PSNR 和 SSMI 指标 表现 上 都 优 于 其 他 为 验证 编码 器 与 鉴别 器 多 尺度 梯度 相连 的 影响 对 于 训练 
实验 ， 进 一 步 证 明了 本 文 方法 的 有 效 性 。 时 梯度 分 布 的 影响 ， 本 文 分 别 采用 编码 器 中 间 层 级 联 输出 作 
图 11 显示 了 本 文 所 提 特 征 损失 函数 与 漫 反射 损失 函数 ”为 鉴别 器 输入 和 不 采用 中 间 层 级 联 输出 分 别 训练 20 epoch 时 


在 训练 中 的 收敛 情况 ， 可 以 看 到 随 着 网 络 训练 次 数 的 增加 模 ”的 梯度 分 布 , 如 图 12 所 示 ， 可 以 注意 到 , 在 不 使 用 中 间 层 输 
型 逐渐 趋 于 收敛 ， 证 明 损 失 函 数 对 生成 器 的 训练 起 到 了 监督 ”出 时 ， 由 于 梯度 递减 问题 ， 梯 度 非常 接近 于 零 ， 而 在 使 用 编 
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码 器 中 间 层 级 联 输出 时 ， 模 型 的 梯度 分 布 更 好 ， 原 因 是 鉴别 
器 与 生成 器 相连 实现 了 梯度 的 传导 ， 缓 解 了 梯度 训练 不 稳定 


问题 。 


(a) 特 征 损失 函数 (b) 漫 反射 损失 函数 
图 11 梯级 数据 集 损失 函数 收敛 情况 
Fig. 11 


Cascade dataset loss function convergence 
表 4 不 同 损失 函数 组 合 比较 


Tab.4 Comparison of different loss function combinations 


Jrik PSNR SSIM 
Lan rna 27.123 0.818 
ÉtEt fs 28.751 0.853 
Loan + Lerm + 应 28.142 0.802 
Lorn + Eg +h 27.392 0.834 


注 : 加 粗 字 体 为 每 列 最 优 的 结果 。 


(a) 未 采用 级 联 输出 (b) 采 用 级 联 输 
图 12 网络 训练 20 epoch 时 梯度 分 布 
Fig.12 Gradient distribution when the network is trained for 20 epochs 


4 ”结束 语 


本 文 设 计 了 一 种 基于 条 件 生成 对 抗 网 络 方法 来 解决 单 张 
而 高 光 去 除 问 题 。 通 过 将 SCFDB 模块 替代 为 传 
统 U-net 架构 基本 模块 来 增强 网 络 对 于 图 像 深层 信息 的 特征 
设计 出 一 种 多 尺度 梯度 级 联 方法 赋 能 网 络 多 尺 
度 鉴别 能 力 并 稳定 了 网 络 训练 梯度 ， 通 过 对 梯级 表面 模拟 高 
光照 射 建立 了 一 个 用 于 网 络 训练 和 测试 的 自 定义 数据 集 。 实 
验 结果 表明 ， 本 文 模型 相 比 基于 颜色 空间 和 先 验 条 件 分 析 的 
传统 算法 和 基于 pix2pixHD 网 络 的 方法 在 梯级 图 像 数据 集 和 
经 典 高 光 数据 集 高 光 处 理 上 都 具有 更 优异 的 表现 ， 具 有 一 定 
的 实际 应 用 前 景 。 但 也 能 看 到 在 处 理 高 强度 金属 反光 区 域 时 
所 有 方法 都 难以 有 效 去 除 和 还 原 梯级 图 像 纹理 ， 下 一 步 的 工 
作 是 继续 优化 网 络 结构 ， 解 决 高 强度 反光 去 除 问 题 ， 同 时 更 
进一步 优化 图 像 细 节 还 原 能 力 ， 提 高 算法 效率 。 
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